seo - GoogleBot یا همان خزنده¬ی وب موتور جست و جوی گوگل

    • GoogleBot یا همان خزنده¬ی وب موتور جست و جوی گوگل
    • googleBot ربات خزنده­ی وب گوگل می­باشد که صفحات را پیدا کرده ، بازیابی می­کند و به اندیس­گذار گوگل می­دهد. تصور googleBot به عنوان یک عنکبوت کوچک که در فضای سایبری می­خزد ساده می­باشد. اما در حقیقت googleBot هرگز وب را پیمایش نمی­کند و تا حد زیادی شبیه به مرورگر وب عمل می­کند. به این صورت که برای بازیابی یک صفحه درخواستی را به یک سرویس دهنده­ی وب ارسال می­کند ، کل صفحه را دانلود کرده و آن را به یک اندیس گذار تحویل می­دهد.

      البته googleBot درخواست واکشی یک صفحه را با سرعت بالاتری نسبت به مرورگر شما انجام می­دهد. در واقع googleBot می­تواند هزاران صفحه­ی مختلف را به طور هم زمان درخواست کند.

      برای اجتناب از افزایش بار روی سرویس دهنده­ی وب یا جلوگیری از درخواست بیش از حد کاربران ، googleBot عمداً در خواست کردن از سرویس دهنده­ی وب را با سرعت کم تری نسبت به توان سرویس دهنده انجام می­دهد. این اصل به عنوان اصل احترام در میان خزنده­های وب شناخته شده است. یعنی خزنده­ها باید این اصل اخلاقی را رعایت کنند و سعی نکنند با درخواست­های بیش از حد و پی در پی سرویس دهنده را از پای درآورند.

      GoogleBot صفحات را به دو روش پیدا می­کند :

      1. از طریق فرم اضافه کردن URL  که در آدرس www.google.com/addurl.html قرار دارد. URL را در این فرم اضافه می­کنید.

      2. از طریق پیدا کردن URL با خزیدن در وب یا همان پیمایش وب

       

      شکل (1-1)  فرم Add URL گوگل

      متاسفانه اسپم سازها می­دانند چگونه روبات­های خودکاری برای بمباران کردن فرم addURL با میلیون­ها URL که به تبلیغات تجاری اشاره دارند ، ایجاد کنند. گوگل URL های مشکوکی را که به نظر می­آید می­خواهند کاربر را با به کار گرفتن تاک تیک­هایی نظیر گذاشتن متن یا پیوند پنهان در صفحات ، پر کردن یک صفحه با اطلاعات نامرتبط با موضوع اصلی صفحه[1] ، پنهان کردن  ، استفاده از هدایت کردن عمدی کاربر به صفحه­ی دیگر ، ایجاد درگاه  ، دامنه یا زیر دامنه با محتویات اساساً یک سان ، ارسال پرس و جوهای اتوماتیک به گوگل و پیوند دادن به همسایه­های بد ، فریب دهند را رد می­کند. پس فرم اضافه کردن URL یک را برای آزمایش دارد : چند تا کلمه­ی موج دار را برای فریب دادن حدس زننده­های کلمه­ی خودکار نمایش می­دهد. از شما می­خواهد تا کلماتی که می­بینید را وارد کنید. این کار برای به دام انداختن روبات­های اسپم می­باشد.

      هنگامی که GoogleBot یک صفحه را بازیابی می­کند همه­ی پیوند­های داخل آن صفحه را جدا کرده و آنها را به یک صف برای ادامه­ی پیمایش اضافه می­کند. GoogleBot سعی می­کند با اسپم­های کوچک برخورد کند ، چون بیشتر طراحان وب به سایت­هایی پیوند می­دهند که تصور می­کنند صفحات آنها کیفیت بالایی دارند.

       با جمع کردن پیوندها از هر صفحه ای که با آن روبه رو می­شوند ، GoogleBot خیلی سریع لیستی از پیوندهایی که می­توانند بخش عظیمی از وب را پوشش دهند ، به دست می­آورد. این روش به عنوان پیمایش عمیق شناخته می­شود که اجازه می­دهد GoogleBot درون سایت­های مختلف عمیقاً کاوش کند.

      به خاطر مقیاس عظیمشان خزنده­های عمقی می­توانند تقریباً به همه­ی صفحات دسترسی پیدا کنند. چون وب بسیار عظیم است ، این عمل زمانبر بوده و ممکن است بعضی صفحات وب ماهی یک بار پیمایش شوند. تابع آن هم ساده است.

      GoogleBot باید طوری برنامه ریزی شود تا بتواند چند چالش را مدیریت کند :

      1. چون GoogleBot به طور هم زمان برای بازیابی هزاران صفحه درخواست می­فرستد ، صف URL ها باید دائما با URL هایی که قبلا در اندیس گوگل بوده اند مقایسه شود و URL های یکسان از صف حذف می­شوند تا خزنده یک صفحه را دو بار پیمایش نکند.

      2. GooleBot باید مشخص کند چند وقت یک بار یک صفحه را دوباره بازدید کند. از طرفی اندیس گذاری مجدد صفحه ای که تغییر نکرده به نحوی باعث هدر دادن منابع می­شود. از طرف دیگر گوگل باید صفحات تغییر کرده را برای به روز کردن نتایج ، دوباره اندیس گذاری کند. برای به روز نگه داشتن اندیس ، گوگل به طور متناوب صفحات معروفی که دائماً در تغییر هستند را با نرخی متناسب با اینکه چند وقت یک بار تغییر می­کنند پیمایش می­کند. چنین پیمایشی اندیس را به روز نگه می­دارد و به عنوان پیمایش تازه شناخته شده است. صفحات روزنامه­ها روزانه و صفحات بازار سها م به دفعات بیشتر دانلود می­شوند. البته پیمایش تازه نسبت به پیمایش عمقی صفحات کم تری را بر می­گرداند.

      ترکیب این دو پیمایش اجازه می­دهد گوگل از منابع خود به صورت کارآمد استفاده کند و اندیس خود را تا حد منطقی به روز نگه دارد.